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摘要 : ! 负 荷 预测 是 电网 系统 中 很 多 应 用 的 关键 部 分 ， 具 有 
重要 作用 。 然而， 由 于 电网 负 蓓 的 非 线 性 、 时 变性 和 不 确定 
性 ， 使 得 准确 预测 负荷 具有 一 定 的 挑战 。 充 分 挖掘 负荷 序列 
的 潜在 特征 是 提升 预测 准确 率 的 关键 本文 认 为 在 特征 提取 
时 应 该 充分 利用 负荷 序列 的 位 置信 息 、 趋 势 性 、 周 期 性 币 

间 信 息 , 同时 还 应 构建 更 深层 次 的 神经 网 络 框架 进行 特征 控 
掘 。 因 此 ， 本 文 提出 了 基于 特征 嵌入 和 Transformer 框架 也 
负荷 预测 模型 ， 该 模型 由 特征 藤 入 层 ，Transformer 层 和 预 


T 


测 层 组 成 ,在 特征 租 入 层 , 模型 首先 对 历史 负荷 的 位 置信 息 、 
趋势 性 、 周 期 性 和 时 间 信 息 进 行 特征 柑 入 , 然后 再 与 天 气 信 
息 进 行 融 合 ， 得 到 特征 向 量 。Transformer 层 则 接受 历史 序 
列 的 特征 向 量 并 挖掘 序列 的 非 线 性 时 序 依赖 关系 。 预 测 层 通 
过 全 连接 网 络 实现 负荷 预测 。 从 实验 结果 来 看 ， 本 文 模型 的 
预测 性 能 优 于 对 比 模型 ， 体 现 了 该 模型 的 可 行 性 和 有 效 性 。 
关键 词 : 负荷 预测 ;特征 虑 入 ; Transformer 框架 ; 神经 网 
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Abstract: Load forecasting is a key part of many applications 
in power grid systems and plays an Important role. However, 
due to the non-linearity, time-varying and uncertainty of the 
grid load, it is challenging to accurately predict the load. 
Mining the potential characteristics of load sequence plays a 
key role to improve the accuracy of forecasting. This paper 
considered that the position information, trend, periodicity and 
time information of the load sequence should be fully utilized 
2017YFB0202403 in feature extraction，and a deeper neural 
network framework should be constructed for feature mining. 
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Therefore, a load forecasting model based on feature extraction 
and Transformer framework was proposed in this paper. The 
model consists of a feature embedding layer, a Transformer 
layer and a prediction layer. In the feature embedding layer, the 
location information, trend, periodicity and time information of 
the historical load are embedded into a characteristic vector. 
Then it outputs feature vector after fusing the obtained vector 
with meteorology information. Transformer layer aims to 
mining the temporal nonlinear dependence hidden in the 
sequence based on the obtained feature vectors of load 
sequence. The prediction layer does the load forecasting task 
through a fully connected network. According to the 
experimental results, the proposed model in this paper 
outperforms the baselines, which verifies the feasibility and 
effectiveness of the model. 


Keywords: Load forecasting; Feature embedding; Transformer 
framework; Neural network 
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负荷 预测 是 电网 系统 中 很 多 应 用 场景 的 重要 
环节 。 一 方面 ， 用 户 侧 的 电力 需求 是 动态 变化 的 ， 
由 于 电能 的 特点 是 即 发 即 用 ， 因 此 急 荷 供需 的 动态 
平衡 需要 负荷 预测 的 支持 ， 才 能 保障 整个 电力 系统 
稳定 、 高 效 地 运行 ， 男 一 方面 ， 国 家 提出 了 构建 以 
新 能 源 为 主体 的 新 型 电力 系统 的 目标 ， 未 来 新 能 源 
( 风 、 光 等 ) 将 成 为 电网 系统 的 重要 部 分 ， 然 而 新 
能 源 的 出 力 具 有 不 确定 性 中， 如 何 保障 电网 的 稳定 
运行 需要 准确 预测 用 电 负 荷 ， 合 理 制 定 发 电 计划 ; 
此 外 , 电动 汽车 的 普及 和 电力 市 场 推进 的 背景 下 叫 ， 
电网 负荷 的 波动 性 进一步 增强 。 可 见 ， 构 建 具 有 准 
确 预 测 能 力 的 负荷 预测 模型 具有 迫切 性 和 实际 应 
用 价值 。 

负荷 预测 任务 的 难点 在 于 其 受 诸多 外 部 因素 
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的 影响 3。 比 如 ， 天 和 气 因 素 和 市 场 因 素 会 给 短期 、 
超 短 期 的 负荷 带 来 波动 ， 政 府 政策 因素 、 居 民 收 入 
因素 会 给 长 期 、 中 长 期 负荷 带 来 影响 。 此 外 ， 数 据 
获取 也 是 影响 负荷 预测 精度 的 重要 因素 。 影 响 负 荷 
的 外 在 因素 太 多 , 很 多 因素 难以 获取 。 这 种 情况 下 ， 
很 难 有 预测 模型 能 够 反映 真实 的 负荷 与 因素 之 间 
的 关系 ， 从 而 影响 模型 预测 效果 。 


以 长 短期 记忆 网 络 LSTM (Long Short-Term 
Memory, LSTM) 和 门 控 循环 单元 (Gate Recurrent 
Unit, GRU ) 为 主 的 循环 神经 网 络 (Recurrent Neural 
Network, RNN) 在 负荷 预测 中 有 广泛 应 用 。 比 如 ， 

文献 [14] 基 于 长 短期 记忆 网 络 提出 了 一 种 针对 区 域 

级 负 蓓 的 深度 超 短 期 预测 方法 。 也 有 很 多 学 者 将 循 
环 神经 网 络 与 其 他 方法 相 结 合 实现 负荷 预测 。 比 如 ， 


负荷 预测 任务 主要 解决 的 问题 是 电网 负荷 的 
非 线 性 、 时 变性 和 不 确定 性 。 非 线性 体现 了 负荷 与 
影响 因素 之 间 的 复杂 函数 关系 。 时 变性 则 反映 的 是 
负荷 自身 的 相关 性 ， 即 负荷 的 当前 状态 与 过 去 的 历 
史 状 态 上 共有 相关 性 ， 可 以 体现 为 时 序 上 的 趋势 性 、 
季节 性 等 。 不 确定 性 则 表现 为 很 多 难以 观测 的 因素 
对 负荷 变化 产生 的 影响 。 

现 有 负荷 预测 方法 可 以 分 为 : 基于 数学 模型 的 
预测 方法 、 基 于 传统 机 器 学 习 的 预测 方法 和 基于 深 
度 学 习 的 预测 方法 3 。 

(1) 基于 数学 模型 的 预测 方法 ， 常 见 的 有 自 回归 
移动 平均 (Auto Regression Moving Average， 
ARMAI) 外 、 自 回归 (Auto Regression, ARJ)DGI 等 时 间 序 
列 模型 ,此 外 ,也 有 基于 卡尔 曼 滤 波 的 预测 方法 71， 
基于 指数 平滑 度 预 测 方法 名。 这 类 方法 简单 ， 运 行 
速度 快 ， 能 够 解决 负荷 的 时 变性 。 但 是 不 能 很 好 地 
解决 非 线 性 和 不 确定 性 问题 。 

(2) 基于 传统 机 器 学 习 的 预测 方法 。 机 器 学 习 入 
法 可 以 有 效 处 理 非 线性 问题 各。 这 类 方法 常用 的 有 
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支持 向 量 机 (Support Vector Machines, SVM) 、 决 
策 树 、 多 层 感知 机 (Maultilayer Perceptron，MLP) 
等 。 比 如 ， 文 献 [10] 结 合 数据 挖掘 预 处 理 技术 和 
SVM 对 负荷 作 预 测 ， 相 比 单纯 的 SVM， 减少 了 数 
量 ， 提 高 了 预测 的 速度 和 精度 。 文 献 [11] 基 于 相 
似 数据 选取 和 梯度 提升 决策 树 对 负荷 进行 预测 。 文 
献 [12] 提 出 了 一 种 基于 改进 支持 向 量 机 的 混合 预测 
模型 ， 并 利用 粒子 群 算法 作 参 数 优化 。 文 献 [13] 基 


文献 [15] 中 ， 作 者 认为 电力 系统 相关 数据 很 多 且 是 
非 线性 的 ， 利 用 皮尔 逊 相关 系数 并 不 能 很 好 地 挖掘 
数据 特征 ， 则 提出 利用 最 大 互信 息 系 数 对 多 源 特征 
进行 选择 ， 然 后 结合 LSSVR、LSTM 和 XGBoost 
进行 模型 构建 。 为 了 充分 利用 深度 学 习 模 型 非 线 性 
映射 和 自 适 应 的 优势 ， 学 者 们 通常 将 其 与 很 多 特征 
提取 方法 相 结 合 。 比 如 ， 文 献 [16] 中 ， 作 者 利用 经 
验 模 态 分 解 方法 将 负 蓓 数据 进行 分 解 ， 然 后 基于 
CNN 深度 分 析 了 负 蓓 数据 在 不 同 频率 下 的 时 序 特 
征 ， 最 后 由 LSTM 利用 学 到 的 特征 进行 预测 。 文 献 
[17] 利 用 小 波 分 解法 对 负荷 数据 进行 预 处 理 ， 然 后 
结合 神经 网 络 做 负荷 预测 .Transformer 模型 08 是 谷 
歌 在 2017 年 提出 的 ， 该 模型 的 最 大 特点 为 它 抛弃 
了 RNN 和 CNN 等 网 络 结构 。Transformer 模型 最 
初 在 机 器 翻译 领域 大 显 生 手 ， 最 近 很 多 学 者 将 其 运 
用 到 了 序列 数据 预测 、 目 标 检测 等 领域 ， 均 取得 了 
不 错 的 效果 09。 比 如 ， 文 献 [20] 构 建 了 基于 注意 力 
的 时 空 图 网 络 模型 作 交 通 流量 预测 ， 其 注意 力 的 实 
现 就 是 利用 transformer 模型 。 文 献 [21] 则 是 利用 
Transformer 构建 了 时 空 特征 提取 模块 , 不 同 的 是 其 
只 采用 了 Transformer 的 编码 块 。 

针对 负荷 预测 的 难点 ， 本 文 将 特征 提取 技术 和 
深度 学 习 结 合 ， 提 出 了 基于 改进 Transformer 的 负 
人 答 预测 模型 。 相 比 现 有 工作 ， 本 文 模型 的 在 
Transformer 编码 块 和 预测 层 进行 了 改进 。 相 比 原始 
Transformer 模型 直接 对 输入 数据 进行 编码 , 本 文 构 
建 了 特征 坐 入 层 对 输入 的 历史 负荷 进行 特征 蔡 入 。 


于 多 层 感知 机 构建 混合 模型 实现 负荷 预测 ， 模 型 
数据 由 梯度 增强 机 进行 特征 学 习 ， 并 传 入 MLP 作 
为 特征 输入 。 基 于 机 器 学 习 的 方法 可 以 实现 负荷 预 
测 ， 但 是 面 对 复 杂 的 电力 系统 ， 其 对 数据 特征 的 挖 
掘 还 是 略 显 不 足 。 

(3) 基于 深度 学 习 的 预测 方法 。 随 着 计算 机 性 能 
的 增强 ， 深 度 学 习 技术 因 其 强大 的 非 线 性 映射 和 自 
适应 能 力 在 各 个 行业 都 有 应 用 且 效 果 都 不 错 。 比 如 ， 
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在 预测 层 ， 输 入 数据 为 过 去 hp” 小 于 h) 时 刻 的 
特征 ， 经 解码 块 之 后 ， 将 得 到 的 输出 特征 直接 传 入 
预测 层 实 现 多 步 预 测 。 相 比 原始 Transformer 模型 
中 , 采用 tl 时 刻 的 预测 值 作 为 输入 《人 迭代 预测 ) ， 
本 文 方法 〈 直 接 预测 ) 可 以 避免 误差 累积 。 特 别 是 
做 多 步 预 测 任务 时 ， 更 能 有 效 提升 预测 性 能 。 


1 算法 模型 原理 
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黄 飞 虎 等 : 


1.1 注意 力 机 制 
注意 力 机 制 最 早 在 机 器 视觉 令 


页 域 被 提出 ， 其 来 
是 借鉴 人 类 的 注意 力 。 抽 象 到 机 器 学 习 领 域 ， 

是 通过 训练 让 模型 对 答 入 数据 分 配 不 同 的 权重 。: 其 
中 ， 这 些 权重 就 是 注意 力 P。 


源 


中 


图 1 带 注意 力 机 制 的 编码 -解码 框架 
Fig. 1 Encoder-decoder framework with attention 

常见 的 注意 力 机 制 是 软 注意 力 机 制 (Soft 

Attention，SA) 。 注 意 力 机 制 可 以 用 于 任何 模型 ， 

本 文 以 编码 -解码 框架 为 基础 ， 对 SA 作 介 绍 。 纺 

-解码 框架 在 自然 语言 处 理 、 时 间 序 列 预测 中 有 广 

应 用 。 如 图 1 所 示 ， 输 入 序列 为 Fei,x2,… xo]， 输 


7 
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序列 为 byuy，… ,ym]， 其 中 注意 力 结果 ci 的 计算 
式 为 : 


C2 A=1 Qh; (1) 

其 中 是 编码 层 的 输入 数据 长 度 ，h 则 是 编码 

层 中 第 j 个 输入 数据 的 隐藏 层 状态 。ai 表示 解码 层 

输出 第 i 个 值 时 编码 层 第 j 个 数据 的 注意 力 分 配 系 
数 ， 计 算 方法 为 : 


ai=F (Hi,hj) (2) 

Hi 是 解码 层 中 第 i 个 数据 的 隐藏 层 状态 。F 为 
函数 ， 计 算 不 和 方 的 相似 度 。 然 后 函数 到 的 输出 
行 归 一 化 就 得 到 了 注意 力 分 配 概率 


经 过 softmax i 
分 布 。 
从 公式 (1) 和 (2) 可 以 将 注意 力 机 种 
般 化 的 方法 表示 : 
Attention(O,K,W)= 
D1Sofimax(Similarity(O,K))*V (3) 
其 中 ，Q 称 为 查询 和 矩阵，K 为 关键 字 和 矩阵 ，V 
为 值 算 阵 。 
除了 SA, 还 有 硬 注意 力 机 制 (Hard Attention )、 
全 局 注意 力 机 制 〈Global Attention) 、 局 部 注意 力 
机 制 〈Local Attention ) 和 自 注 意 力 机 制 
(Self-Attention) 22。 硬 注意 力 机 制 中 ;的 取 值 为 
0 或 1， 全 局 注意 力 机 制 是 考虑 编码 层 中 所 有 的 隐 
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j 更 一 
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一 种 改进 Transformer 的 电力 负荷 预测 方法 


藏 层 状态 ， 局 部 注意 力 机 制 则 是 考虑 部 分 隐藏 层 状 
， 自 注意 力 机制 是 由 谷歌 在 Transformer 模型 中 
提出。 自 注 意 力 机 制 中 @、K、V 均 属于 同一 对 象 ， 
其 他 注意 力 机 制 中 C 属于 一 个 对 象 , 玉 和 了 属于 另 
一 个 对 象 。 

1.2 ” Transformer 模型 
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图 2 Transformer 模型 框架 
Fig. 2 Framework of transformer model 

Transformer 模型 由 编码 块 和 解码 块 组 成 , 如 图 
2 所 示 。 编 码 块 是 由 Zeozc 个 独立 的 编码 层 堆 琶 而 成 。 
每 一 个 编码 层 里 面包 含 多 头 注意 力 层 、 全 连接 层 和 
正则 化 层 。 同 理 ， 解 码 块 也 是 Lae 个 解码 层 堆 苔 而 
成 。 解 码 层 与 编码 层 的 区 别 在 于 ， 每 一 个 解码 层 有 
两 个 多 头 注意 力 层 。 

先 介绍 解码 层 的 多 头 注 意 力 ， 其 结果 可 以 表示 
为 : 


Multihead(H)=concat(head,,..., head,)W* (4) 
其 计算 过 程 为 ， 首 先 将 u 个 注意 力 表示 进行 拼接 ， 
然后 与 W? 作 和 矩 阵 乘 法 。 结 合 公 式 (3) ， 单 个 注意 
力 块 可 视 为 QO、K、VV 的 函数 ， 即 : 


ead mn (5) 
' Vk 
其 中 ，OER2d4 KER2 ER 。O、 有 R V 是 


由 输入 数据 进行 编码 之 后 再 次 作 线 性 映射 得 到 : 


Q-XW* (6) 

K=XW* (7) 

V=%W" (8) 

这 里 W94, W*,W" 是 可 学 习 的 参数 。X 是 输入 数 
据 与 位 置 编码 相 结合 得 到 的 特征 和 矩阵。 给 定 n 个 输 
入 数据 ， 每 个 输入 项 X,e RI” 为 d 维 向 量 ， 马 定义 
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Xte, (9) 负 蓓 预测 的 任务 为 ， 给 定 获取 及时 刻 的 历史 负 

e 是 位 置 编码 函数 ， 其 计算 公式 为 ; 荷 序列 区 sb 和， 学 习 函 数 对 未 来 t+1 时刻 的 
负荷 值 做 预测 ， 其 形式 化 的 定义 为 

加 (一 二 ) ro24 XI [和 和 2]) (12) 

er 0 (10) 为 了 实现 具有 良好 预测 性 能 的 负荷 预测 模型 ， 

(一 1 本 文 认为 需要 解决 两 个 问题 ， 即 特征 提取 和 非 线性 

依赖 。 特 征 提取 ， 是 基于 历史 数据 和 额外 的 天 气 数 


对 于 解码 层 ， 因 其 有 两 个 多 头 注 意 力 层 ， 其 中 


据 进行 特征 挖掘 为 模型 提供 输入 特征 。 由 于 负荷 数 


AAA 


第 一 个 注意 力 层 与 解码 层 的 一 样 。 第 二 个 注意 力 屋 ” 据 的 影响 因素 很 多 ， 因 此 尽 可 能 地 挖掘 丰富 的 特征 
的 天 和 也 是 解码 块 的 输出 ，@ 是 正则 化 层 的 输出 。 ”信息 是 特征 提取 阶段 的 目的 。 非 线性 依赖 是 基于 输 
Transformer 中 正则 化 层 结构 都 一 致 , 主要 由 残 差 连 入 特征 数据 挖掘 其 潜在 的 在 时 间 维 度 的 非 线 性 依 
接 和 正则 化 操作 构成 : 赖 关 系 ， 其 目的 是 尽 可 能 地 控 气 负荷 的 变化 模式 。 
彰 刊 | Ny 十 6 下 土 日 刁 佣 出 竹 起 扯 I 
normeu=Normalization(z,normpyre) (11) 0 中 。 本 文 届 计 了 机 ， 问 
、 题 ， 基 于 Transformer 模型 解决 非 线 | 痪 问题 ， 
其 中 也 是 注意 力 层 或 者 全 连接 层 的 输出 。 三 | 全 ~ 而 洒 = 凡人 名 莅 而 济 | » » 而 洲 -He 
: 最 后 通过 预测 层 实现 负荷 预测 。 图 3 为 本 文 预测 模 
型 的 框架 。 
2 ”本 文 模型 国 
2 
预测 层 
Transformer 层 
| 
= [i 也 | Se Ce | 
由 - 济 Add & Norm Add & Norm 所 
数据 处 理 Feed et Feed a a 
J eh Add & Norm © I 
历史 负荷 历史 天 气 SE 一 -一 一 
Wea 人、 FoE Multi-Head Attention Te ES A 
如 Add & Norm 长 
[rt | Attention 
pe 特征 嵌入 层 从 十 个 
本 Xinput Xinput 
有 时刻 h ”时刻 
图 3 预测 模型 框架 
Fig. 3 Framework of Prediction model 
| CO | 
E> ED 一 人 
| CE 一 > CGO) | 次 
es 
X i 一 》 输入 特征 
| D 趋势 特征 
> EE 


天 气 天 气 特征 


码 器 


名 


4 特征 伦 入 层 框 架 


Fig. 4 Framework of feature embedding layer 
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2.1 特征 骨 入 层 加 构成 趋势 矩阵 TeR3?Y， 然 后 利用 卷 积 操 进 行 特 
特征 符 入 层 的 主要 目的 是 为 下 一 层 提供 丰富 征 提 取 : 

的 特征 信息 。 因 此 ， 本 文 在 特征 其 入 层 从 三 个 方面 Xe=Conv1d(T) (14) 

进行 了 特征 提取 和 融合 ， 分 别 为 序列 特征 、 趋 势 特 其 中 Conv14 为 一 维 卷 积 操作 。 

征 和 天 气 特征 。 如 图 4 所 示 ， 在 该 层 本 文 分 别 设计 由 于 天 气 与 用 户 用 电 也 有 很 大 相关 性 ， 因 此 在 


了 不 同 的 编码 器 用 于 对 这 三 类 特征 进行 嵌入 。 
从 历史 负荷 数据 中 提取 长 度 为 h 时刻 负 蓓 数据 ， 
可 以 得 到 负 蓓 序列 [X441,.….， 耶 。 在 已 有 文献 中 ， 

大 多 数 算法 是 直接 对 序列 进行 特征 挖 气 ， 比 如 文 
献 [9,23]。 与 这 些 模型 类 似 , 本文 也 采用 了 值 编码 器 
E, 对 其 值 进行 特征 映射 。 同时， 本 文 认为 负 奏 序列 
于 中 的 时 间 信 息 、 位 置信 息 对 于 下 一 层 的 非 线 性 依 
赖 关 系 挖掘 都 有 重要 人 作用。 因此， 对 于 位 置信 息 ， 
本 文采 用 位 置 编 码 器 E, (公式 10) 对 头 中 每 一 项 
X; 进 行 位 置 编码 ,其 位 置信 息 即 是 该 项 站 ;在 当前 序 
列 中 的 顺序 , 这 里 即 为 六 该 方法 与 传统 Transformer 
模型 中 的 位 置 编码 方法 一 样 。 引 入 位 置 编码 是 让 编 


模型 中 还 引入 了 天 气 数据 进行 特征 融合 。 由 于 天 和 气 
数据 都 是 数值 类 型 ， 则 可 将 天 气 数据 构成 数值 向 量 

Q， 作 为 全 连接 网 络 的 输入 ， 即 : 
Xvwea=Ew(Q) (15) 

最 后 ， 将 这 些 特征 进行 融合 ， 即 : 
Xinpu=concatl(Xseg Xire NXwea) (16) 
2.2 Transformer 层 

针对 负荷 数据 的 非 线性 和 时 变性 特征 ， 本 文采 
用 Transformer 模型 进行 挖掘 。 相 比 常用 的 LSTM 
和 GRU 网 络 ，Transformer 模型 更 适合 挖掘 序列 中 
的 时 序 依赖 关系 。LSTM 和 GRU 的 缺点 在 于 ， 其 


码 块 中 的 注意 力 机 制 能 够 对 序列 输入 的 数据 进行 
定位 。 对 于 时 间 信 息 ， 本 文采 用 时 间 编 码 器 E, 对 当 
前 时 间 进 行 编码 ， 该 模块 有 助 于 在 数据 中 引入 时 间 
言 息 。 因 为 用 户 的 用 电 需 求 与 时 间 具 有 很 强 的 相关 
性 。 对 于 每 一 项 X;， 首 先 提取 其 时 间 信 息 (月份 、 
日 \、 周 、 时 、 分 信息 ), 假定 其 当前 时 间 为 "2021-03-03 
15:30:30”， 则 提取 的 信息 包含 : 3 月 份 、3 号 、 星 期 
三 、 下 午 15 点 、30 分 。 用 数值 向 量 表示 为 


[3,3,3,15,30]。 对 于 分 钟 信息 , 在 实际 处 理 时 ， 以 15 
分 为 一 个 时 间 段 ， 即 把 1 小 时 分 成 4 段 。 因 此 ， 在 
输入 时 间 编 码 器 时 ， 该 时 间 信 息 应 该 表示 为 
[3,3,3,15,2]。 模 型 中 ， 值 编码 器 和 时 间 编 码 器 为 简 
单 的 全 连接 网 络 。 位 置 编码 器 直接 采用 公式 10 ji 
行 计算 ， 则 不 需要 参数 。 用 公式 形式 化 地 表示 序列 
的 处 理 过 程 为 : 
Xog=E(X)+E,(X)+E(X) (13) 
在 数据 预 处 理 时 ， 除 了 从 历史 负荷 数据 中 提取 
长 度 为 h 时 刻 负 荷 序列 [i441,.…., XX]， 还 需要 获取 
过 去 hh 天 在 1 时 刻 的 负荷 数据 构建 D， 过 去 h 周 在 
1 时 刻 的 负荷 数据 构建 ， 以 及 过 去 h 月 在 +t 时刻 
的 负荷 数据 构建 M。 本 文 将 D、WW 和 M 定义 为 数 
据 的 趋势 信息 。 这 些 信息 包含 了 过 去 相对 来 说 较 长 
一 段 时 间 的 负荷 变化 趋势 ， 能 够 反映 一 定 的 周期 性 
和 趋势 性 。 在 模型 中 ， 本 文 将 D、W 和 M 进行 肢 
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码 阶段 只 有 最 多 一 个 单元 的 隐藏 特征 可 以 传递 
解码 层 ， 这 就 导致 部 分 信息 丢失 中。 对 于 负 蓓 数 
据 这 类 波动 性 较 大 的 任务 来 说 ， 应 该 充分 利用 前 面 
提取 的 隐藏 特征 。 其 实 ， 在 时 序数 据 预 测 任务 中 ， 
对 于 LSTM 和 GRU 的 这 种 部 分 信息 丢失 的 情况 ， 
学 者 们 提出 了 可 以 通过 注意 力 机 制 解决 。 
Transformer 模型 的 特点 在 于 , 它 不 仅 引 入 了 注意 力 
机 制 ， 而 且 还 采用 了 更 深层 的 网 络 。 这 些 技术 使 得 
Transformer 在 时 序 依赖 关系 挖掘 方面 比 LSTM 和 
GRU 更 加 擅长 。 因 此 , 在 模型 中 本 文 将 特征 峙 入 层 
得 到 的 特征 Xzww 输 入 Transformer 层 ， 则 可 得 到 具 
有 时 序 依赖 的 特征 信息 Xjs,， 其 计算 公式 为 : 
Xaep=Transformer(Xinput) (17) 


2.3 预测 层 

通过 Transformer 层 获 取 到 特征 信息 Xjoy 后 , 便 
可 利用 预测 层 实现 负 蓓 预测 。 本 文采 用 的 预测 层 网 
络 框架 如 图 5 所 示 ， 该 网 络 由 1 个 全 连接 层 构成 。 
这 里 需要 强调 的 是 , Transformer 架构 是 一 个 序列 到 
序列 的 模式 ， 在 解码 时 需要 有 输入 数据 。 在 传统 的 
Transformer 模型 中 ， 解 码 块 的 输入 数据 是 tl 时 刻 
的 预测 值 。 采 用 这 种 方式 的 缺点 在 于 ， 预 测 误差 会 
进行 累积 。 文 献 [24] 认 为 ， 时 间 序 列 预测 可 以 采取 
直接 预测 的 方式 ， 防 止 误 差 累积 。 本 文 在 设计 
Transformer 解码 块 时 也 采用 这 种 方式 , 其 只 需要 一 
次 输入 ， 然 后 进行 特征 学 习 ， 解 码 块 的 输出 特征 则 
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直接 输入 预测 层 实现 负荷 预测 。 解 码 块 的 输入 为 过 
去 加 (小 于 hh) 时 刻 的 特征 。 
个 


图 5 预测 层 框 架 
Fig. $ Framework of prediction layer 

3 实例 分 析 
3.1 数据 集 与 评价 指标 

本 文采 用 的 数据 集 ? 源 于 美国 能 源 信息 署 的 公 
开 数 据 平台 ,本 文 下 载 了 纽约 市 2015 年 7 月 至 2021 
年 4 月 的 数据 。 数 据 间隔 时 间 以 小 时 为 单位 。 

采用 评价 方法 有 平均 绝对 百分比 误差 (Mean 
Absolute Percentage Error, MAPE) 和 均 方 根 误差 差 

(Root Mean Squared Error，RMSE) 作为 算法 的 评 

价 指标 ， 计 算 公 式 如 下 : 


MAPE= 1 ei- | 


(18) 
RMSE= 到 Go- 人) 


公式 中 , n 为 样本 数 ，xj 为 预测 负 蓓 值 ， 务 为 实 
际 负 蓓 值 。 
3.2 对 比 算法 
(1) HA， 即 历史 平均 ， 该 方法 是 时 序数 据 预 测 经 
常 采 用 的 对 比方 法 ， 其 主要 特点 是 可 以 感知 序列 的 
趋势 特征 。 实 验 中 ， 输 入 数据 长 度 为 h。 
(2) ARIMA， 该 方法 是 经 典 的 时 间 序 列 方法 ， 在 
负荷 预测 任务 中 也 常 作为 对 比 算法 。 实 验 中 ， 采 用 
模型 参数 为 (0,0,1)。 
(2) GBRT， 即 渐进 梯度 回归 树 (Gradient Boost 
Regression Tree) ， 可 处 理 不 同类 型 的 数据 ， 具 有 很 
强 的 预测 能 力 。 该 方法 也 是 时 序数 据 预测 经 常 采 用 
的 对 比方 法 ,实验 中 ,利用 sklearn 提供 的 函数 实现 ， 
主要 参数 为 估计 器 数量 500， 最 大 深度 3。 
(3) LSTM， 即 长 短期 记忆 网 络 ， 是 循环 神经 网 络 
的 经 典 网 络 ， 能 够 挖掘 序列 数据 的 非 线性 时 间 依 赖 
关系 。 实 验 中 ， 采 用 2 层 LSTM， 输 出 维度 为 64。 


100% 


~ 


数据 集 : https://www.eia.gov/electricity/gridmonitor/dashboard/ 
electric_overview/US48/US48 
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(4)BP, 即 反 向 传播 (Back Propagation) 神 经 网 络 ， 

是 经 典 的 神经 网 络 ， 在 时 序 预 测 和 负 蓓 预测 任务 中 
有 广泛 应 用 。 实 验 中 ,隐藏 层 维度 为 32， 输 出 维度 
64。 

(5) CECL09， 即 基于 聚 类 经 验 模 态 分 解 的 模型 ， 
文中 作者 将 其 与 CNN、LSTM 结合 , 主要 用 于 对 比 
本 文 模型 采用 的 特征 提取 层 和 Transformer 层 。 实 
验 中 , 序列 分 解 为 17 个 子 序列 , 聚 类 数 为 10, CNN 
采用 3x3 的 卷 积 核 ， LSTM 的 输出 维度 为 64， 层 数 
为 1。 

3.3 参数 设置 

在 特征 提取 层 , E、 Et 和 Ew 三 个 编码 器 是 全 连 
接 网 络 ， 则 参数 为 全 连接 网 络 的 输出 ， 本 文 将 这 三 
个 全 连接 网 络 的 输出 均 设 为 4.。 在 Transformer 层 
的 参数 分 别 有 为 @ 和 的 输出 维度 dr, 的 输出 维 


~ 


度 注意 力 头 数 head， 编码 块 层 的 导数 了 vc， 解码 
层 的 层 数 _ Lae， 编码 块 输入 历史 数据 长 度 h， 解 码 


块 输入 历史 数据 的 长 度 h*"。 本 文 将 di 的 维度 与 d。 
保持 一 致 。 在 预测 层 , 全 连接 网 络 的 输出 为 预测 值 ， 
维度 为 1。 在 预测 层 ， 模 型 是 将 解码 层 的 输出 按 行 
展开 ， 则 其 维度 与 编码 层 及 以 及 d,、head 相关 。 因 
此 ， 在 预测 层 ， 需 要 设置 的 参数 为 疡 。 在 模型 参数 
选择 时 ， 对 参数 组 合 不 同 的 值 ， 并 采取 网 格 搜 索 的 
方式 确定 模型 参数 ,ds、dx 和 qd 的 取 值 集合 设 为 [8， 
16, 32，64]。head、Lenc 和 Laec 的 取 值 集合 为 [1, 2， 
3]。 有 设置 为 168, 如 设置 为 48。 这 里 的 预测 任务 均 
是 间隔 时 间 为 1 小 时 的 负荷 序列 数据 。 


表 1 不 同 参数 组 合 及 其 预测 效果 


Table. 1 Different parameter setting and its prediction 


performance 
参数 评价 指标 
dd 四 head Lo La RMSE/kWh “MPAE/% 

8 8 1 | 1 581.32 11.01 

8 16 1 1 1 578.45 10.31 
16 32 1 1 1 551.61 10.06 
32 64 1 1 544.25 9.88 
32 64 2 1 1 521.09 9.76 
32 64 3 2 2 497.54 9.42 
32 64 3 3 3 517.31 9.51 


表 1 给 出 了 在 不 同 参数 组 合 情 况 下 ， 模 型 在 数 
据 集 上 的 预测 效果 。 从 实验 结果 来 看 , 组合 [32, 64， 
3，2,， 2] 效 果 最 好 , 因此 将 其 作为 模型 参数 。 此 外 ， 
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在 模型 训练 阶段 ， 采 用 Adam 算法 ， 学 习 率 设置 为 
104，batch 大 小 设置 为 100， 训 练 次 数 为 30。 训 练 
目标 函数 为 : 


Loss= F410)? (18) 
为 样本 数 ，* 为 预测 负荷 值 ， 全 为 实际 负荷 值 。 
3.4 预测 结果 分 析 
3.4.1 负荷 预测 效果 对 比 


表 2 模型 预测 效果 对 比 
Table. 2 Comparison of model prediction 
performance on the first datasets 


模型 RMSE/kWh MAPE/% 
ARIMA 1656.02 21.08 
LSTM 840.16 13.71 
BP 778.37 13.79 
HA 1748.04 22.17 
GBRT 717.48 12.02 
CECL 778.25 13.28 
Transformer 629.51 10.06 
本 文 模型 497.54 9.42 


表 2 为 各 模型 在 数据 集 1 上 的 负 蓓 预测 结 
因 时 间 间 隔 为 1 天 ， 则 称 其 为 日 负荷 预测 。 从 实验 
结果 来 看 ， 本 文 模型 的 预测 效果 最 好 ， 其 次 是 
Transformer 模型 。 对 比 模型 中 ，ARIMA 和 GBRT 
均 是 时 间 序 列 预测 的 经 典 模型 。 然 而 ，ARIMA 在 
该 数据 集 上 表现 不 好 ，GBRT 是 采用 集成 学 习 思 路 
实现 预测 ， 效 果 不 错 。CECL 通过 序列 分 解 挖掘 序 
列 特征 也 有 不 错 的 预测 效果 。HA 是 通过 对 历史 负 
荷 取 均 值 实现 预测 ， 获 取信 息 有 限 ， 在 数据 集 上 表 
现 不 好 。 图 6 给 出 了 各 模型 的 预测 实例 ， 时 间 间 隔 
为 1 天。 与 真实 符合 相 比 ， 可 以 看 出 本 文 模型 的 具 
有 良好 的 预测 性 能 。 


x104 | 一 一 本 文 算法 一 一 实 际 负 奉 > 104[ 一 一 Transformer 一 一 实际 负 共 
去 草 
三 1.8 三 1.8 
a 
把 1.6 据 1.6 
v 
a 于 14 
1:00 12:00 23:00 1:00 12:00 23:00 
x104 一 一 CECL 一 一 实际 负荷 x104 一 一 GBRT 一 一 实际 负荷 
逮 了 4 
三 1.8 = 18 
兰 兰 
汇 1.6 证 1.6 
B14 B14 
1:00 12:00 23:00 1:00 12:00 23:00 
> 104 一 一 HA 一 一 实际 负荷 104 一 一 BP 一 一 灾 际 负 茶 
六 二 
三 1.8 三 1.8 
这 兰 
拒 1.6 握 1.6 
i 有 1.4 


1:00 12:00 23:00 1:00 12:00 23:00 


1:00 12:00 23:00 | 100 1200 23.00 
图 6 特征 嵌入 层 有 效 性 验证 
Fig. 6 Validation of feature embedding layer 
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3.4.2 特征 嵌入 层 有 效 性 验证 

为 了 提高 模型 负荷 预测 效果 ， 本 文 模型 设计 了 
特征 提取 层 ， 分 别 将 天 和 气 信息 、 趋 势 信息 以 及 时 间 
言 息 融合 到 模型 中 。 在 实验 中 ， 本 文 分 别 对 比 了 去 
掉 这 些 信 息 时 模型 的 预测 效果 ， 以 验证 这 些 信 息 对 
于 模型 的 有 效 性 ， 如 图 7 所 示 。 可 以 看 出 ， 当 去 掉 
某 些 特征 信息 之 后 ， 模 型 的 预测 效果 都 会 受到 影响 。 
特别 是 时 间 信 息 去 掉 之 后 ， 模 型 的 预测 效果 下 降 最 
多 。 这 表明 时 间 信 息 对 于 模型 预测 具有 很 重要 的 作 
用 。 这 也 从 另 一 方面 验证 了 ， 用 户 用 电 与 时 间 具 有 
相关 性 。 


本 文 模型 /时 间 
本 文 模型 /天 气 
本 文 模型 /趋势 

本 文 模型 


300 350 400 450 500 550 600 
RMSE/kWh 


本 文 模型 /时 间 
本 文 模型 /天 气 
本 文 模型 /趋势 

本 文 模型 


7 区 8 8 9 9.5 10 
MAPE/% 

图 7 特征 嵌入 层 有 效 性 验证 

Fig. 7 Validation of feature embedding layer 


3.4.3 预测 层 有 效 性 验证 


一 @ 一 本 文 模型 -迭代 预测 一 旦 一 本文 模型 
2000 T 
二 
之 
从 1000 上 
加 印 
过 量 
E34 
0 1 
lh 5h 10h 
预测 时 间 /h 
30 r 
示 20 LU 
[ea 
三 中 
三 10 日 ] 
0 
lh 5h 10h 
预测 时 间 /h 


图 8 预测 层 有 效 性 验证 
Fig. 8 Validation of prediction layer 
为 了 验证 本 文 模型 在 解码 块 做 的 改进 ( 即 由 原 
始 Transformer 的 迭代 预测 改 为 直接 预测 ) 是 否 
效 ， 图 8 给 出 了 两 种 预测 方式 在 未 来 1 天 、 未 来 5 
天 、10 天 的 预测 结果 。 实 验 从 结果 来 看 ， 本 文 模型 
随 着 预测 时 间 的 增加 ， 模 型 预测 性 能 并 未 大 幅度 下 
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降 。 相反 , 友 代 预测 在 多 步 预测 中 由 于 误差 的 累计 ， 53(2): 139-144. 


随 着 预测 步 长 的 增加 预测 性 能 下 降 较 快 。 


和 Transformer 框架 的 预测 模型 。 
特征 租 入 层 ， 充 分 利用 负 
言 息 和 趋势 信息 进行 特征 乡 


出 了 基于 特征 帜 入 
模型 中 ， 设 计 了 
A 时 间 


针对 负荷 预测 任务 ， 本 文 提 


要 创新 点 之 一 。 同时, 在 预测 层 采 - 直接 预测 方式 ， 


测 ， 


新 点 之 


将 解码 块 的 输出 特征 直接 传 入 预测 层 实 现 多 步 预 


这 也 是 本 文 模型 的 主要 创 
。 在 实验 中 ， 通 过 真实 负荷 数据 集 ， 验 证 


了 验证 本 文 模 型 的 有 效 性 和 可 行 性 。 
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